
%!TEX program = xelatex
%!TEX TS-program = xelatex
%!TEX encoding = UTF-8 Unicode

\documentclass[10pt]{article} 

\input{wang_preamble.tex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage{titling}
\setlength{\droptitle}{-2cm}   % This is your set screw

%%文档的题目、作者与日期
\author{王立庆（2020级数学与应用数学1班）}
\title{统计软件第5-8章练习}
%\date{\vspace{-3ex}}
\renewcommand{\today}{\number\year \,年 \number\month \,月 \number\day \,日}
%\date{2021年3月11日}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\begin{document}

\maketitle

\begin{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%% 第5章
%\begin{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型1
设数据 $X_1,\cdots,X_n$ 来自正态分布 $N(\mu,\sigma^2)$. 下述说法中，不正确的是哪个？
\begin{enumerate}
\item 统计量 $U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 服从标准正态分布 $N(0,1)$.
\item 统计量 $t=\frac{\bar{X}-\mu}{S/\sqrt{n}}$ 服从分布 $t(n-1)$.
\item 当总体方差已知的时候，使用 $t$ 统计量，当总体方差未知的时候，使用 $U$ 统计量。
\item 当 $n$ 很大时，自由度为 $n$ 的 $t$ 分布越来越接近标准正态分布。
\end{enumerate}

{\color{red}答案解析：(c).
反过来了。当总体方差未知的时候，使用 $t$ 统计量，当总体方差已知的时候，使用 $U$ 统计量。

}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型2

设数据 $X_1,\cdots,X_n$ 来自某未知总体。用符号秩检验均值是否等于 $m$, 下述步骤中，不正确的是哪个？
\begin{enumerate}
\item 将每个数据都减去待检验的均值。
\item 将得到的差值按从小到大分配排名 $1,2,\cdots,n$. 
\item 计算差值符号为正的那些数据的排名的和，记为 $V$.
\item 若真实均值接近待检验的均值，则 $V$ 的值在某个范围内。
\end{enumerate}

{\color{red}答案解析：(b).
将得到的差值按绝对值从小到大分配排名 $1,2,\cdots,n$. 
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型3
载入 R 软件的 {\color{blue}\verb+Nile+} 数据框。假设年流量服从正态分布。
运行下述命令，阅读结果，选出不正确的选项。
{\color{blue}
\begin{verbatim}
> Nile
> t.test(Nile, mu=900)
\end{verbatim}
}

\begin{enumerate}
\item  结果表明无法拒绝年流量的均值为900的零假设。
\item  这个检验统计量的自由度是99.
\item  置信度为 95\% 的置信区间是 $[885.8, 952.9]$.
\item  这是单侧检验。
\end{enumerate}

{\color{red}答案解析：(d).
这是双侧检验。
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型4
设数据 $X_1,\cdots,X_m$ 来自正态总体 $X\sim N(\mu_1,\sigma_1^2)$, 数据 $Y_1,\cdots,Y_n$ 来自另一个与总体 $X$ 独立的正态总体 $Y\sim N(\mu_2,\sigma_2^2)$. 考虑假设检验 $H_0: \mu_1=\mu_2, \,\text{ vs. }\, H_1: \mu_1\neq \mu_2$.
下述说法中，不正确的是哪个？

\begin{enumerate}
\item 如果方差 $\sigma_1^2, \sigma_2^2$ 已知，那么统计量 $U=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\text{SEDM}}$ 服从标准正态分布 $N(0,1)$. 
\item 上一个选项中的 $\text{SEDM}=\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}$, 是随机变量 $X-Y$ 的标准差。
\item 如果方差相等即 $\sigma_1^2=\sigma_2^2$ 但未知，那么统计量 $T=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\text{SEDM}}$ 服从分布 $t(m+n-2)$. 
\item 上一个选项中的 $\text{SEDM}=S_\omega\sqrt{\frac{1}{m}+\frac{1}{n}}$, 其中 $S_\omega^2=\frac{(m-1)S_x^2+(n-1)S_y^2}{m+n-2}$.
\end{enumerate}

{\color{red}答案解析：(b).
第一个选项中的 $\text{SEDM}$ 是随机变量 $\bar{X}-\bar{Y}$ 的标准差。
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型5
载入 \,{\color{blue}\verb+ISwR+} 包里的 \,{\color{blue}\verb+energy+} 数据框。数据 \,{\color{blue}\verb+expend+} 按因子 \,{\color{blue}\verb+stature+} 的不同水平分成了两组。假设这两组 \,{\color{blue}\verb+expend+} 数据来自两个相互独立的正态分布,并且不假设它们的方差相等。运行下述命令，观察结果。下述说法中，不正确的是哪个？
{\color{blue}
\begin{verbatim}
> library(ISwR)
> energy
> head(energy)
> summary(energy)
> t.test(energy$expend~energy$stature)
> attach(energy)
> t.test(expend~stature)
> ?t.test
\end{verbatim}
}

\begin{enumerate}
\item 在置信水平为 5\%时，这两组数据的均值显著不相等。
\item 这个统计量的自由度是 $m+n-2=20$. 
\item 这是双样本的均值差的假设检验。
\item 这里默认方差不等且未知，自由度是根据 Welch 方法来计算的。
\end{enumerate}

{\color{red}答案解析：(b).
默认按照 Welch 方法估计自由度，程序结果读出是 15.919. 
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型6
设数据 $X_1,\cdots,X_m$ 来自正态总体 $X\sim N(\mu_1,\sigma_1^2)$, 数据 $Y_1,\cdots,Y_n$ 来自另一个与总体 $X$ 独立的正态总体 $Y\sim N(\mu_2,\sigma_2^2)$. 考虑假设检验 $H_0: \sigma_1^2=\sigma_2^2, \,\text{ vs. }\, H_1: \sigma_1^2\neq \sigma_2^2$.
研究 {\color{blue}\verb+energy+} 数据，检验偏胖人群和偏瘦人群的能量消耗数据的方差是相等。
下述说法中，不正确的是哪个？
{\color{blue}
\begin{verbatim}
> var.test(expend~stature)
> x<-energy$expend[stature=='lean']
> y<-energy$expend[stature=='obese']
> s1sq<-sum((x-mean(x))^2)/(length(x)-1)
> s2sq<-sum((y-mean(y))^2)/(length(y)-1)
> myf<-s1sq/s2sq
> mypvalue<-1-pf(myf,length(x)-1,length(y)-1)
\end{verbatim}
}

\begin{enumerate}
\item  使用统计量 $F=\frac{S_1^2}{S_2^2}$, 在 $H_0$ 为真时，$F\sim F(m-1,n-1)$ 分布。
\item  上述程序计算的 $F$ 统计值为 $0.84$, $p$ 值为 $0.79$.
\item  检验结果显示无法拒绝方差相等的零假设。
\item  方差比的置信区间包含1，这说明无法拒绝方差相等的零假设。
\end{enumerate}

{\color{red}答案解析：(b).
程序计算的 $F$ 统计值为 $0.78$, $p$ 值为 $0.66$.
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型7
变量 {\color{blue}\verb+react+} 是一个数值型向量，包含了两名护士对结核菌素反应大小判断的差。检验其均值是否显著不等于零。下述说法中，不正确的是哪个？
{\color{blue}
\begin{verbatim}
> react
> ?react
> qqnorm(react)
> t.test(react,mu=0)
> wilcox.test(react,mu=0)
\end{verbatim}
}
\begin{enumerate}
\item  $t$ 检验的结果表明，要拒绝均值等于零的零假设。
\item  从QQ图看出，数据近似可以看做是服从正态分布的。
\item  非参数检验的结果表明，要拒绝均值等于零的零假设。
\item  $t$ 检验的置信度为95\%的置信区间包含零，因此要拒绝均值等于零的零假设。
\end{enumerate}

{\color{red}答案解析：(d).
$t$ 检验的置信度为95\%的置信区间不包含零。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型8
数据框 {\color{blue}\verb+vitcap+} 包含24行3列数据，某个镉工厂的工人的年龄和肺活量。分组1表示暴露在工作环境至少10年，分组3表示不曾暴露在工作环境。比较这两组工人的肺活量是否有显著差异。下述说法中，不正确的是哪个？
{\color{blue}
\begin{verbatim}
> head(vitcap)
> t.test(vital.capacity~group, data=vitcap)
> t.test(vital.capacity~group, data=vitcap, conf=0.99)
> wilcox.test(vital.capacity~group,data=vitcap)
\end{verbatim}
}

\begin{enumerate}
\item  Wilcoxon符号秩检验的 $p$ 值是 $0.1783$, 拒绝两组数据的均值差为零的零假设。
\item  置信度为 99\%的置信区间是 $[-2.06, -0.02]$.
\item  $t$ 检验的统计值为 $-2.9228$, $p$值为 $0.0087$. 
\item  在置信水平 $\alpha=0.05$ 时，$t$ 检验结果表明，拒绝两组工人的肺活量无显著差异的零假设。
\end{enumerate}

{\color{red}答案解析：(a).
Wilcoxon符号秩检验的 $p$ 值是 $0.01783$.

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型9
数据框 {\color{blue}\verb+ashina+} 有16行3列，包含了一个使用一氧化氮合酶来抑制头痛的交叉试验的数据。数据是基于基线数据的记录疼痛程度的打分。变量 {\color{blue}\verb+vas.active+} 是给予药物，{\color{blue}\verb+vas.plac+} 是给予安慰剂。第一组是先给予安慰剂，第二组是先给予药物。下述说法中，不正确的是哪个？
{\color{blue}
\begin{verbatim}
> ashina
> ?ashina
> colnames(ashina)<-c('x','y','grp')
> attach(ashina)
> t.test(x,y)
> t.test(x,y,paired=T)
> t.test(x[grp==1],y[grp==1])
> t.test(x[grp==2],y[grp==2])
\end{verbatim}
}

\begin{enumerate}
\item  普通的双样本检验，$p$ 值为 $0.02099$, 拒绝药物与安慰剂作用无差异的零假设。
\item  配对的双样本检验，$p$ 值为 $0.005644$, 拒绝药物与安慰剂作用无差异的零假设。
\item 先给予安慰剂的那组，$p$ 值为 $0.04415$, 拒绝药物与安慰剂作用无差异的零假设。
\item  先给予药物的那组，$p$ 值为 $0.02113$, 拒绝药物与安慰剂作用无差异的零假设。
\end{enumerate}

{\color{red}答案解析：(d).
先给予药物的那组，$p$ 值为 $0.2113$, 无法拒绝药物与安慰剂作用无差异的零假设。

}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型10
生成一些标准正态分布的随机数，并检验其均值是否显著不等于零。运行程序。下述说法中，不正确的是哪个？
{\color{blue}
\begin{verbatim}
> x<-rnorm(25)  #1
> tx<-t.test(x)  #2
> summary(tx)  #3
> tx$p.value  #4
> class(tx)  #5
\end{verbatim}
}

\begin{enumerate}
\item  第一行命令产生了25个服从标准正态分布的随机数。
\item  第二行命令用 $t$ 检验，其零假设是数据 {\color{blue}\verb+x+} 的均值等于零。
\item  第四行的结果表明，这个检验 $p$ 值总是大于置信水平的。
\item  第五行命令表明，保存这个检验的结果的变量 {\color{blue}\verb+tx+}, 其数据类型是 {\color{blue}\verb+htest+}.
\end{enumerate}

{\color{red}答案解析：(c).
不一定的。用 {\color{blue}\verb+rnorm()+} 函数生成25个随机数，其均值可能显著不等于零。虽然是例外情况，但也可能发生。这是第一类错误（弃真）所描述的事情。实验例如：
{\color{blue}
\begin{verbatim}
> txp<-replicate(100,t.test(rnorm(25))$p.value)
> min(txp)
\end{verbatim}
}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%% 第6章
%\begin{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型1简单线性回归模型的基本知识
关于一元线性回归模型 $y_i=\alpha+\beta x_i+\varepsilon_i, \, (1\le i\le n)$, 下述哪个说法不正确？
\begin{enumerate}
\item  误差项 $\varepsilon_1,\cdots,\varepsilon_n$ 相互独立，且均值为零，方差相等。
\item  误差项的方差 $\sigma^2$ 的无偏估计量为 $\hat{\sigma}^2=\text{SSE}/n$, 其中残差平方和 $\text{SSE}=\sum\limits_{i=1}^n e_i^2$. 
\item  参数 $\alpha$ 的最小二乘估计量为 $\hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}$.
\item  参数 $\beta$ 的最小二乘估计量为 $\hat{\beta}=\left[\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\right] \left[\sum\limits_{i=1}^n (x_i-\bar{x})^2\right]^{-1}$. 
\end{enumerate}

{\color{red}答案解析：(b).
误差项的方差无偏估计量是 $\hat{\sigma}^2=\text{SSE}/(n-2)$. 
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型2系数的估计
为估计一元线性回归模型的参数，使用目标函数 $Q(\alpha,\beta)=\sum\limits_{i=1}^n (y_i-\alpha-\beta x_i)^2$, 并求参数 $\alpha,\beta$ 使得 $Q$ 取最小。这种参数估计方法的名称是什么？ 
\begin{enumerate}
\item  矩估计法。
\item  极大似然估计法。
\item  最小二乘法。
\item  期望最大化方法。
\end{enumerate}

{\color{red}答案解析：(c).
毫无疑问，这是最小二乘法。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型3系数是否为零的t检验
考虑一元线性回归模型 $y_i=\alpha+\beta x_i+\varepsilon_i, \, (1\le i\le n)$, 关于参数的检验，下述哪个说法不正确？
\begin{enumerate}
\item  检验参数 $\beta$ 是否显著不等于零，就是检验变量 $x$ 是否对 $y$ 有显著的线性影响。
\item  在误差项是正态分布的假设下，参数估计量 $\hat{\beta}$ 服从 $N(\beta,\sigma^2/L_{xx})$. 
\item  上一个选项中的 $L_{xx}=\sum\limits_{i=1}^n (x_i-\bar{x})^2$, 这是变量 $x$ 的离差平方和。
\item  在 $H_0: \beta=0$ 为真的假设下，统计量 $t=\frac{\hat{\beta}}{\text{SE}(\hat{\beta})}$ 服从自由度为 $n-2$ 的 $t$ 分布，其中 $\text{SE}(\hat{\beta})=\sigma\sqrt{L_{xx}}$. 
\end{enumerate}

{\color{red}答案解析：(d).
检验统计量的分母应该是 $\text{SE}(\hat{\beta})=\hat{\sigma}\sqrt{L_{xx}}$, 其中的误差项的标准差是未知的，要使用估计值。

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型4模型方程
下述代码载入程序包 \,{\color{blue}\verb+ISwR+}, 并研究数据框 \,{\color{blue}\verb+thuesen+}. 下述说法中，哪个是不正确的？
{\color{blue}
\begin{verbatim}
> library(ISwR)  #1
> thuesen  #2
> mydata<-thuesen[complete.cases(thuesen),]  #3
> colnames(mydata)<-c('x','y')  #4
> mydata  #5
> lm01<-lm(y~x,data=mydata)  #6
> lm02<-lm(y~x-1,data=mydata)  #7
> lm03<-lm(y~.,data=mydata)  #8
\end{verbatim}
}

\begin{enumerate}
\item  数据框 \,{\color{blue}\verb+mydata+} 共有 24 行观测数据。
\item  回归模型 \,{\color{blue}\verb+lm01+} 是不过原点的线性回归。
\item  回归模型 \,{\color{blue}\verb+lm02+} 是过原点的线性回归。
\item  回归模型 \,{\color{blue}\verb+lm03+} 是对除了 \,{\color{blue}\verb+y+} 之外的所有变量进行的线性回归，包括截距项。
\end{enumerate}

{\color{red}答案解析：(a).
数据框 \,{\color{blue}\verb+mydata+} 共有 23 行观测数据。

}%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型5残差值与回归值
接着上一题的数据框 mydata,  运行下述代码。下述说法中，哪个是不正确的？
{\color{blue}
\begin{verbatim}
> options(digits=4)  #1
> lm01<-lm(y~x,data=mydata)  #2
> yhat<-fitted(lm01)  #3
> e<-resid(lm01)  #4
> options(digits=2)  #5
> e  #6
> em<-matrix(e)  #7
> em  #8
> class(em)  #9
> dim(em)  #10
> qqnorm(e)  #11
\end{verbatim}
}

\begin{enumerate}
\item  第3行程序从回归模型里提取出因变量的回归值。
\item  第4行程序从回归模型里提取出残差值。
\item  第10行程序得到这个矩阵的维数是1行23列的。
\item  第11行程序检验残差是否服从正态分布。
\end{enumerate}

{\color{red}答案解析：(c).
第10行程序得到这个矩阵的维数是23行1列的。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型6lm函数的输入与输出的解读
接着上一题的数据框 mydata,  运行下述代码。下述说法中，哪个是不正确的？
{\color{blue}
\begin{verbatim}
> options(digits=4)  #1
> lm01<-lm(y~x,data=mydata)  #2
> yhat<-fitted(lm01)  #3
> x<-mydata$x  #4
> y<-mydata$y  #5
> plot(x,y)  #6
> abline(lm01)  #7
> points(x,yhat,col='red')  #8
> segments(x,y,x,yhat,lwd=3,col='blue')  #9
\end{verbatim}
}

\begin{enumerate}
\item  第6行程序画出了数据的散点图。
\item  第7行程序画出了数据的坐标轴。
\item  第8行程序画出了回归点。
\item  第9行程序画出了残差线段。
\end{enumerate}

{\color{red}答案解析：(b).
第7行程序画出了回归直线。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型7置信带与预测带的概念计算与绘图
载入程序包 ISwR 中的数据框 rmr, 选取体重为自变量，代谢率为因变量。
画出散点图和回归直线。设置信水平为 95\%, 计算回归直线的斜率的置信区间，选出正确的答案。
{\color{blue}
\begin{verbatim}
> mydata<-rmr  
> head(mydata)
> colnames(mydata)<-c('x','y')
> head(mydata)
> lm02<-lm(y~x,data=mydata)
> plot(mydata)
> abline(lm02)
> summary(lm02)
\end{verbatim}
}

\begin{enumerate}
\item  $[3.09, 9.03]$. 
\item  $[4.09, 8.03]$. 
\item  $[5.09, 9.03]$. 
\item  $[6.09, 8.03]$. 
\end{enumerate}

{\color{red}答案解析：(c).
%运行程序即得。
{\color{blue}
\begin{verbatim}
> betahat<-7.060
> sebh<-0.978
> df<-42
> betahat - qt(0.975,df)*sebh
> betahat + qt(0.975,df)*sebh
> confint(lm02)
\end{verbatim}
}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型8Pearson相关系数
在上一题中，预测60公斤的体重，对应的代谢率是多少？
\begin{enumerate}
\item  1235.
\item  1335.
\item  1435.
\item  1525.
\end{enumerate}

{\color{red}答案解析：(a).
{\color{blue}
\begin{verbatim}
> predict(lm02,newdata=data.frame(x=60))
> 811.227+7.06*60
\end{verbatim}
}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型9Spearman相关系数
在上一题中，体重和代谢率的皮尔逊相关系数是多少？
\begin{enumerate}
\item  0.7397.
\item  0.5543.
\item  0.7442.
\item  0.5397.
\end{enumerate}

{\color{red}答案解析：(c).
{\color{blue}
\begin{verbatim}
> cor(mydata$x,mydata$y)
> cor(mydata$x,mydata$y,method='pearson')
> cor.test(mydata$x,mydata$y,method='pearson')
\end{verbatim}
}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型10Kendall相关系数
下述程序模拟生成二维正态分布的随机数，并画出散点图。找出皮尔逊相关系数最大的图。
{\color{blue}
\begin{verbatim}
> rho<-c(-0.8,-0.2,0.6,0.9)  #1
> par(mfrow=c(2,2))  #2
> for (k in 1:4)  #3
+ {  #4
+ x<-rnorm(100)  #5
+ y<-rnorm(100,rho[k]*x,sqrt(1-rho[k]^2))  #6
+ plot(x,y)  #7
+ }  #8
\end{verbatim}
}

\begin{enumerate}
\item  第一个图。
\item  第二个图。
\item  第三个图。
\item  第四个图。
\end{enumerate}

{\color{red}答案解析：(d).
看图可知，第四个图最接近直线。这个二维的随机数服从什么分布？

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%% 第7章 
%\begin{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型1
载入程序包 \,{\color{blue}\verb+ISwR+}, 载入数据 \,{\color{blue}\verb+zelazo+}. 
下述说法中，不正确的是那个？

{\color{blue}
\begin{verbatim}
> library(ISwR)  #1 
> zelazo  #2 
> ?zelazo  #3 
> walk<-unlist(zelazo)  #4 
> group<-factor(rep(1:4,c(6,6,6,5)),labels=names(zelazo))  #5 
> mydata<-data.frame(walk=walk,group=group)  #6 
\end{verbatim}
}

\begin{enumerate}
\item  这个数据 \,{\color{blue}\verb+zelazo+} 是一个列表，包含了四组婴儿走路的年龄（月份）。
\item  第6行命令得到一个数据框 \,{\color{blue}\verb+mydata+}, 包含23行，两个变量分别是走路年龄的数值型数据和表示组别的因子型数据。 
\item   第一组是测试组，接受积极的走路训练。
\item  第二组是消极训练组，不接受积极的走路训练。
\end{enumerate}

{\color{red}答案解析：(d).
第二组是消极训练组，接受同第一组一样的 social and gross motor stimulation 训练，但没接受走路和位置训练。
参考课文270页的数据说明，或者阅读数据的帮助页面。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型2
继续研究 \,{\color{blue}\verb+zelazo+} 数据，计算组内方差、组间方差和全局方差。
下述说法中，不正确的是那个？

{\color{blue}
\begin{verbatim}
> x1<-zelazo$active
> x2<-zelazo$passive
> x3<-zelazo$none
> x4<-zelazo$ctr.8w
> x<-c(x1,x2,x3,x4)
> x1bar<-mean(x1)
> x2bar<-mean(x2)
> x3bar<-mean(x3)
> x4bar<-mean(x4)
> xbar<-mean(x)
> n1<-length(x1)
> n2<-length(x2)
> n3<-length(x3)
> n4<-length(x4)
\end{verbatim}
}

\begin{enumerate}
\item  数据 \,{\color{blue}\verb+zelazo+} 的组内方差 $\text{SSD}_w$ 是 43.69. 
\item  数据 \,{\color{blue}\verb+zelazo+} 的组间方差 $\text{SSD}_b$ 是 18.47. 
\item  全局方差总是组内方差与组间方差的和。
\item  如果组间方差远远大于组内方差，那么认为分组数据是有显著差异的。
\end{enumerate}

{\color{red}答案解析：(b).
经过下述计算，组间方差是 14.78.
\begin{verbatim}
> SSDw<-sum((x1-x1bar)^2)+sum((x2-x2bar)^2)+sum((x3-x3bar)^2)+sum((x4-x4bar)^2)
> SSDb<-n1*(x1bar-xbar)^2+n2*(x2bar-xbar)^2+n3*(x3bar-xbar)^2+n4*(x4bar-xbar)^2
\end{verbatim}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型3
继续研究 \,{\color{blue}\verb+zelazo+} 数据，计算平均组内方差 $\text{MS}_w$、平均组间方差 $\text{MS}_b$ 和 $F$ 统计量。下述说法中，不正确的是那个？

\begin{enumerate}
\item  组内方差的自由度是 $N-k=23-4=19$, 平均组内方差是 2.299.
\item  组间方差的自由度是 $k-1=4-1=3$, 平均组间方差是 4.926.
\item  $F$ 统计量是平均组内方差除以平均组间方差，在数据与分组无关的零假设下，服从自由度为 $(k-1,N-k)$ 的 $F$ 分布。
\item  $F$ 统计量的统计值为 2.142, $F$ 统计量大于这个统计值的概率为 0.1285.
\end{enumerate}

{\color{red}答案解析：(c).
倒过来了，$F$ 统计量应该是平均组间方差除以平均组内方差。

\begin{verbatim}
> MSw<-SSDw/(N-k)
> MSb<-SSDb/(k-1)
> myf<-MSb/MSw
> 1-pf(myf,3,19)
\end{verbatim}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型4
继续研究 \,{\color{blue}\verb+zelazo+} 数据，使用对分组数据的线性回归。设显著性水平 $\alpha=0.05$. 下述说法中，不正确的是那个？
{\color{blue}
\begin{verbatim}
> lm01<-lm(walk~group,data=mydata)
> summary(lm01)
> anova(lm01)
\end{verbatim}
}

\begin{enumerate}
\item  这时的自变量是一个属性变量，它的数据类型是因子型的。
\item  方差分析表的 $p$ 值是 $0.1285$, 说明组间差异不显著。
\item  第四组与第一组的均值差为 2.225, 而且这个差异是显著的。
\item  这个线性模型的截距项是总体均值。
\end{enumerate}

{\color{red}答案解析：(d).
这个线性模型的截距项是第一组的均值。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型5
继续研究 \,{\color{blue}\verb+zelazo+} 数据中，不同组的走路年龄的均值是否存在差异。设显著性水平 $\alpha=0.05$. 下述说法中，不正确的是那个？
%P.R. Zelazo, N.A. Zelazo, and S. Kolb (1972), “Walking” in the newborn, Science, 176: 314–315.

{\color{blue}
\begin{verbatim}
> pairwise.t.test(walk,group)
> pairwise.t.test(walk,group,p.adj='bonferroni')
> t.test(zelazo$active,zelazo$ctr.8w)
> oneway.test(walk~group)
> bartlett.test(walk~group)
> kruskal.test(walk~group)
\end{verbatim}
}

\begin{enumerate}
\item  Bonferroni 修正方法试图解决多次检验的时候更容易出现小概率事件的问题。
\item  Welch 方法可以检验方差不相等时的均值差异。这里的函数 oneway.test() 的检验结果无法拒绝无差异的零假设。
\item  Bartlett 检验的零假设是不同组的方差是相等的。这里检验结果是不同组的方差有显著差异。
\item  Kruskal-Wallis 检验是方差分析的非参数版本，数据被替换为不考虑分组的秩。这里检验结果是组间没有显著差异。
\end{enumerate}

{\color{red}答案解析：(c).
这里检验结果是不同组的方差没有显著差异。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型6
继续研究 \,{\color{blue}\verb+zelazo+} 数据，用条形图画出分组数据，然后对每组数据，叠加均值和标准误的值。
下述说法中，不正确的是那个？

{\color{blue}
\begin{verbatim}
> walkbar<-tapply(walk,group,mean)  #1 
> walksd<-tapply(walk,group,sd)  #2 
> walkn<-tapply(walk,group,length)  #3 
> sem<-walksd/sqrt(walkn)  #4 
> stripchart(walk~group,method='jitter',jitter=0.05,pch=16,vert=T)  #5 
> arrows(1:4,walkbar+sem,1:4,walkbar-sem,angle=45,code=3,length=0.1)  #6 
> lines(1:4,walkbar,pch=1,type='b',cex=1)  #7 
\end{verbatim}
}

\begin{enumerate}
\item  程序的前三行分别计算了各组数据的均值、标准差和样本容量。
\item  程序第四行计算了每组数据的均值的标准差，即 $\hat{\sigma}/\sqrt{n}$. 
\item  程序第五行画出了条形图，这是一种分组数据的散点图，纵坐标是数据的数值大小，横坐标是组别。
\item  程序第六行画出了每组数据的均值加减数据的一个标准差所形成的区间。
\end{enumerate}

{\color{red}答案解析：(d).
程序第六行画出了每组数据的均值加减均值的一个标准差所形成的区间。

%\begin{center}
\begin{figure}[ht!]\centering
\includegraphics[height=8cm,width=15cm]{ex-7-6-stripchart.png}
\caption{分组数据的条形图}
\end{figure}
%\end{center}

}

%\newpage
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型7
数据框 \,{\color{blue}\verb+lung+} 包含了分别用三种方法测得的6位病人的肺活量。
测量方法和不同病人看做是影响肺活量的两个因素。设显著性水平 $\alpha=0.05$. 下述说法中，不正确的是那个？

{\color{blue}
\begin{verbatim}
> lung
> ?lung
> lm07<-lm(volume~method+subject,data=lung)
> summary(lm07)
\end{verbatim}
}

\begin{enumerate}
\item  测量方法A与B的结果没有显著不同。
\item  测量方法A与C的结果有显著不同。
\item  第一个病人与第二个病人的肺活量有显著的不同。
\item  第一个病人与第三个病人的肺活量有显著的不同。
\end{enumerate}

{\color{red}答案解析：(d).
第一个病人与第三个病人的肺活量的均值差的检验，$p$ 值等于0.68, 因此没有显著的不同。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型8
继续研究数据框 \,{\color{blue}\verb+lung+}, 下述程序画出了双因素的肺活量数据的交互图。
下述说法中，不正确的是那个？
{\color{blue}
\begin{verbatim}
> attach(lung)
> interaction.plot(method,subject,volume)
\end{verbatim}
}

\begin{enumerate}
\item  这个图的横坐标是三种测量方法。
\item  这个图的纵坐标是肺活量。
\item  这个图的每条折线代表一个病人。
\item  测量方法A的结果普遍比测量方法C的结果高。
\end{enumerate}

{\color{red}答案解析：(d).
从图中明显看出，测量方法A的结果普遍比测量方法C的结果低。
%\begin{center}
\begin{figure}[ht!]\centering
\includegraphics[height=8cm,width=15cm]{ex-7-8-lung-volume.png}
\caption{双因素数据的交互图}
\end{figure}
%\end{center}

}


%\newpage
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型9
继续研究数据框 \,{\color{blue}\verb+lung+}, 将数据组织成如下表格 $x_{ij},1\le i\le m, 1\le j\le n$, 其中 $m=6,n=3$. 
考虑统计模型 $X_{ij}=\mu + \alpha_i +\beta_j + \varepsilon_{ij}, \,\, \varepsilon_{ij}\sim N(0,\sigma^2)$. 
下述说法中，不正确的是那个？

\begin{table}[ht]\centering
\caption{肺活量看作是一个双因素的数据}\vspace{0.2cm}
\begin{tabular}{|c|c|c|c|} \hline
subject  & method A & method B & method C \\ \hline 
1 & 3.3 & 3.1 & 4.0  \\ \hline 
2 & 2.5 & 2.6 & 2.8  \\ \hline 
3 & 3.1 & 3.5 & 4.1  \\ \hline 
4 & 3.0 & 3.7 & 3.5  \\ \hline 
5 & 2.8 & 3.6 & 3.9  \\ \hline 
6 & 2.9 & 2.8 & 2.9  \\ \hline 
\end{tabular}
\end{table}

\begin{enumerate}
\item  这个数据的行间方差是 $\text{SSD}_r=2.183$.
\item  这个数据的列间方差是 $\text{SSD}_c=1.081$.
\item  这个数据的总方差是 $\text{SSD}_t=4.096$.
\item  这个数据的残差方差是 $\text{SSD}_{res}=0.238$.
\end{enumerate}

{\color{red}答案解析：(d).
这个数据的残差方差是 $\text{SSD}_{res}=0.832$.

\begin{verbatim}
> x<-lung$volume
> xbar<-mean(x)
> xidotbar<-tapply(volume,subject,mean)
> xdotjbar<-tapply(volume,method,mean)
> m<-6
> n<-3
> SSDr<-n*sum((xidotbar-xbar)^2)
> SSDc<-m*sum((xdotjbar-xbar)^2)
> SSDt<-sum((x-xbar)^2)
> SSDres<-SSDt-SSDr-SSDc

> xi<-rep(xidotbar,each=3)
> xj<-rep(xdotjbar,6)
> mydata<-lung
> mydata$xi<-xi
> mydata$xj<-xj
> SSDres02<-sum((x-xi-xj+xbar)^2)
\end{verbatim}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型10
继续研究数据框 \,{\color{blue}\verb+lung+}, 分别使用参数模型和非参数模型。设显著性水平 $\alpha=0.05$. 
下述说法中，不正确的是那个？

{\color{blue}
\begin{verbatim}
> lm07<-lm(volume ~ method + subject)
> summary(lm07)
> anova(lm07)
> friedman.test(volume ~ subject | method)
> friedman.test(volume ~ method | subject)
\end{verbatim}
}

\begin{enumerate}
\item  参数方法检验，数据的行效应显著。
\item  参数方法检验，数据的列效应显著。
\item  非参数方法检验，数据的行效应显著。
\item  非参数方法检验，数据的列效应不显著。
\end{enumerate}

{\color{red}答案解析：(c).
非参数方法检验，数据的行效应不显著。检验的 $p$ 值为 0.06876, 略大于显著性水平。
下述代码是从定义直接计算 $F$ 统计量的值，以及 $p$ 值。

\begin{verbatim}
> myfr<-SSDr/(m-1)/SSDres*(m-1)*(n-1)
> 1-pf(myfr,m-1,(m-1)*(n-1))
> myfc<-SSDc/(n-1)/SSDres*(m-1)*(n-1)
> 1-pf(myfc,n-1,(m-1)*(n-1))
\end{verbatim}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%% 第8章 
%\begin{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型1：二项分布与正态近似
设随机变量 $X$ 服从二项分布 $b(n,p)$, 其中 $n$ 较大而 $p$ 较小。记 $\lambda=np$. 设 $U=\frac{X-np}{\sqrt{np(1-p)}}$. 下述说法中，不正确的是哪个？ 
\begin{enumerate}
\item  随机变量 $U$ 近似服从标准正态分布。
\item  随机变量 $X$ 近似服从均值为 $\lambda$ 的泊松分布。
\item  随机变量 $U^2$ 近似服从自由度为1的卡方分布。
\item  随机变量 $X^2$ 近似服从自由度为 $(1,n)$ 的F分布。
\end{enumerate}

{\color{red}答案解析：(d).
随机变量 $X^2$ 的分布不太像会是 $F$ 分布。

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型2：Yates连续性修正法
设随机变量 $X$ 服从二项分布 $b(25,0.4)$. 用四种方法计算概率 $\mathbb{P}(5\le X\le 15)$.
\begin{enumerate}
\item[(1)] 使用二项分布公式精确计算。
\item[(2)] 使用正态近似计算。
\item[(3)] 使用正态近似计算，加Yates 修正方法。
\item[(4)] 使用泊松近似计算。
\end{enumerate}
下述说法中，正确的是哪个？
{\color{blue}
\begin{verbatim}
> sum(dpois(5:15,lambda))
> pnorm(5.5/sqrt(6))-pnorm(-5.5/sqrt(6))
> pnorm(5/sqrt(6))-pnorm(-5/sqrt(6))
> sum(dbinom(5:15,n,p))
\end{verbatim}
}

\begin{enumerate}
\item  使用二项分布公式精确计算的概率是 0.9220.
\item  使用正态近似计算的概率是 0.9774.
\item  使用修正方法的正态近似计算的概率是 0.9753.
\item  使用泊松近似计算的概率是 0.9753.
\end{enumerate}

{\color{red}答案解析：(c).
按照计算方法，找到相应的代码，查看运行结果。参考茆诗松概率论与数理统计教程第243页。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型3：prop.test函数
设零假设为某种手术方法的术后并发症的概率是0.2. 一位医生使用一种新的手术方法，进行 $n$ 次手术都没有发生并发症。设显著性水平是0.05. 则 $n$ 至少是多少，才能拒绝零假设，认为新方法的术后并发症的概率已经小于0.2?

\begin{enumerate}
\item  至少10次。
\item  至少12次。
\item  至少14次。
\item  至少16次。
\end{enumerate}

{\color{red}答案解析：(c).
既可以直接计算概率，看这位医生的成功创举在零假设为真的前提下是否成为小概率事件，也可以使用二项分布检验，看检验的 $p$ 值是否小于显著性水平。注意这是单侧检验，也就是说，零假设的对立假设是：术后并发症的概率小于0.2. 
{\color{blue}
\begin{verbatim}
> pbinom(0,10,0.2)
> pbinom(0,12,0.2)
> pbinom(0,14,0.2)
> pbinom(0,16,0.2)
> binom.test(0,10,p=0.2,alt='less')
> binom.test(0,12,p=0.2,alt='less')
> binom.test(0,14,p=0.2,alt='less')
> binom.test(0,16,p=0.2,alt='less')
\end{verbatim}
}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型4：两个独立比例的差的检验
到5月8日为止，中国大陆的新冠病毒疫情的确诊人数和死亡人数分别为 $N_1=88423$ 和 $x_1=4633$, 中国大陆之外为 $N_2=3757184$ 和 $x_2 = 264931$. 设 $p_1=x_1/N_1$, $p_2=x_2/N_2$, 以及 $d=p_1-p_2$. 
设显著性水平为 0.05. 下述说法中，不正确的是哪个？

\begin{enumerate}
\item  这是两个比例的差异的检验，可使用正态近似检验。
\item  比例的差异 $d$ 的估计值为 $-0.01812$.
\item  比例的差异 $d$ 的方差的估计值为 $0.0075452$.
\item  两个比例的差异在统计上是显著的。
\end{enumerate}

{\color{red}答案解析：(c).
比例的差异 $d$ 的方差的估计值为 $7.5452\times 10^{-7}$.
{\color{blue}
\begin{verbatim}
> N1=88423; x1=4633
> N2=3757184; x2=264931
> d=x1/N1-x2/N2
> p=(x1+x2)/(N1+N2)
> vpd=(1/N1+1/N2)*p*(1-p)
> u=d/sqrt(vpd)
> prop.test(c(x1,x2),c(N1,N2))
\end{verbatim}
}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型5：比值比odd ratio（fisher.test函数）
在某次流行病事件中，西部地区的747例病患中死亡了210人，东部地区的661例病患中死亡了122人。
设该疾病在西部和东部的死亡率分别为 $p_1$ 和 $p_2$. 下述说法中，不正确的是哪个？
\begin{enumerate}
\item  $(p_1,p_2)$ 的比值比的估计值 1.7277.
\item  $(p_2,p_1)$ 的比值比的估计值 0.5788.
\item  $(p_1,p_2)$ 的比值比的 95\% 的置信区间是 [1.3318, 2.2461].
\item  $(p_1,p_2)$ 的比值比的 90\% 的置信区间是 [1.4864, 2.0552].
\end{enumerate}

{\color{red}答案解析：(d).
前两个选项按照比值比的公式 $\text{OR}=\frac{p_1/(1-p_1)}{p_2/(1-p_2)}$ 计算，后两个选项用 \,{\color{blue}\verb+fisher.test()+}函数进行计算。$(p_1,p_2)$ 的比值比的 90\% 的置信区间是 [1.3864, 2.1552].
{\color{blue}
\begin{verbatim}
> p1/(1-p1)/p2*(1-p2)
[1] 1.727722
> p2/(1-p2)/p1*(1-p1)
[1] 0.5787967
> A<-matrix(c(210,122,747-210,661-122),2)
> fisher.test(A)
> ?fisher.test
> fisher.test(A,conf.level = 0.90)
\end{verbatim}
}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型6：分组不同引起比例不同的趋势的检验
考虑两种治疗胃溃疡的药物，其中药物 Pirenzepine 治愈23人，未治愈7人。 药物 Trithiozine 治愈18人，未治愈13人。下述说法中，不正确的是哪个？

\begin{enumerate}
\item  药物 Pirenzepine 的治愈率是 $p_1=0.7667$.
\item  药物 Trithiozine 的治愈率是 $p_2=0.5806$.
\item  Fisher 检验的比值比的置信度为 95\% 的置信区间是 $[0.694, 8.495]$.
\item  使用连续性修正的比例检验，得到比值差的 95\% 的置信区间是 $[0.077, 0.449]$.
\end{enumerate}

{\color{red}答案解析：(d).
比值差的置信度为 95\% 的置信区间是 $[-0.077, 0.449]$, 区间包含零，这从一方面说明这两个比例无显著差异。
{\color{blue}
\begin{verbatim}
> A<-matrix(c(23,18,7,13),2)
> fisher.test(A)
> prop.test(A)
\end{verbatim}
}

}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型7：prop.trend.test函数
阅读课文习题8.4，运行下述程序。下述说法中，不正确的是哪个？

{\color{blue}
\begin{verbatim}
> tbl<-c(42,157,47,62,4,15,4,1,8,28,9,7)  #1
> dim(tbl)<-c(2,2,3)  #2
> dimnames(tbl)<-list(c('A','B'),c('not pierced','pierced'),
+ c('ok','broken','cracked'))  #3
> ftable(tbl)  #4
> fisher.test(tbl['B',,])  #5
> fisher.test(tbl['A',,])  #6
> fisher.test(margin.table(tbl,2:3))  #7
\end{verbatim}
}

\begin{enumerate}
\item  第二行命令得到了一个长方体形状的表格数据。
\item  第三行命令给表格的每个维度指定了名称。
\item  第四行命令将这个三维表格显示成为一张平面化的列联表。
\item  第五行命令结果显示，使用开孔器防止蒸蛋破损或破裂的效果显著。
\end{enumerate}

{\color{red}答案解析：(d).
第五行命令结果显示，对尺寸B的鸡蛋，使用开孔器防止蒸蛋破损或破裂的效果不是非常显著。
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型8：统计独立性的检验统计量
%茆诗松书本第384页例7.3.2.
某厂生产的产品的优质品率一直保持在40\%. 近期对该厂生产的该类产品抽检20件，其中优质品7件。设置信水平为0.05, 问题是能否认为优质品率仍保持在 40\%. 关于该问题，下述说法中，不正确的是哪个？

\begin{enumerate}
\item  该问题的零假设为优质品率 $p=0.4$, 备选假设为优质品率 $p\neq 0.4$.
\item  统计量 $T$ 服从二项分布 $b(20,p)$, 其统计值 $t=7$.
\item  检验的 $p$ 值为 $2\text{min}(P(T\le t),P(T\ge t))=0.8318$, 因此无法拒绝零假设。
\item  使用 prop.test() 函数，使用连续性修正的正态近似检验，得到 $p$ 值为 0.8915. 
\end{enumerate}

{\color{red}答案解析：(d).
使用连续性修正的正态近似检验，得到 $p$ 值为 0.8195. 
{\color{blue}
\begin{verbatim}
> prop.test(7,20,0.4)
\end{verbatim}
}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型9：chisq.test函数的使用方法
%茆诗松书本第385页例7.3.3.
某厂生产的产品不合格率不高于10\%. 在一次例行检查中，随机抽取80件，发现有11件不合格品，设置信水平为0.05, 问题是否能认为不合格率仍为 10\%. 关于该问题，下述说法中，不正确的是哪个？

\begin{enumerate}
\item  这次抽查的不合格率的点估计值是 0.1375.
\item  这是单侧检验，备选假设是不合格率小于 0.1.
\item  采用大样本检验，不加修正的比例检验 $p$ 值为 0.1318.
\item  采用大样本检验，使用连续性修正的比例检验 $p$ 值为 0.1757.
\end{enumerate}

{\color{red}答案解析：(b).
这是单侧检验，零假设是不合格率小于 0.1, 备选假设是不合格率大于 0.1. 你能计算出精确的 $p$ 值吗？
{\color{blue}
\begin{verbatim}
> ?prop.test
> prop.test(11,80,0.1,alt='greater',correct='F')
> prop.test(11,80,0.1,alt='greater',correct='T')
\end{verbatim}
}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\item %知识点：数据类型10
若在猜硬币正反面的游戏中，某人在100次试验里中猜中60次。设显著性水平为 0.05, 你是否认为他有诀窍？
关于该问题，下述说法中，不正确的是哪个？
\begin{enumerate}
\item  如果随机猜中60次或更多是小概率事件，那么认为他有诀窍。
\item  是不是小概率事件，要比较这个事件的发生概率与显著性水平。
\item  因为随机猜中60次或更多的概率是 0.0284, 所以认为他有诀窍。
\item  因为比例检验的$p$ 值的精确值为 0.05689，所以他没有诀窍。
%\item  因为检验的$p$ 值的近似值为 0.05743，所以他有诀窍。
\end{enumerate}

{\color{red}答案解析：(d).
%还要考虑猜中40次或更少的概率，如果猜中60次或更多或猜中40次或更少，是小概率事件，那么认为他有诀窍。
因为是判断有无诀窍，所以无需考虑猜中40次或更少的概率。因此这是单侧检验。
{\color{blue}
\begin{verbatim}
> prop.test(60,100,0.5,alt='greater')
> sum(dbinom(60:100,100,0.5))
\end{verbatim}
}
}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%\end{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\end{enumerate}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\end{document}




